Python】从文本字符串中提取数字、电话号码、日期、网址的方法

关于从文本字符串中提取数字、电话号码、日期和网址的方法：

提取数字：

在 Python 中，使用正则表达式 \d 来匹配数字。 \d 表示匹配一个数字字符（0-9）。如果要匹配连续的数字，可以使用 \d+ 。

import re

def extract_digits(text):

digit_list = re.findall(r'\d+', text)

return [int(digit) for digit in digit_list] # 将提取的数字字符串转换为整数

text = "I have 15 apples and 20 oranges. The price is $30."

print(extract_digits(text))

提取电话号码：

电话号码的格式多种多样，但常见的有以下几种：

1. 以 + 开头，后面跟国家代码和电话号码，例如： +8613812345678

2. 没有 + ，直接是国家代码和电话号码，例如： 8613812345678

3. 国内的手机号码，通常是 11 位数字，以 1 开头，例如： 13812345678

4. 固定电话号码，可能有区号，例如： 010-12345678 或 021 12345678

以下是一个相对复杂的电话号码提取函数示例：

import re

def extract_phone_numbers(text):

patterns = [

r'\+\d{1,3}\d{10}', # 以 + 开头，后面是国家代码和 10 位电话号码

r'\d{11}', # 11 位手机号码

r'\d{3}-\d{7,8}', # 区号 3 位，号码 7 到 8 位

r'\d{4}-\d{7}', # 区号 4 位，号码 7 位

r'\d{3}\s\d{7,8}', # 区号 3 位，空格分隔，号码 7 到 8 位

r'\d{4}\s\d{7}' # 区号 4 位，空格分隔，号码 7 位

]

phone_numbers = []

for pattern in patterns:

found_numbers = re.findall(pattern, text)

phone_numbers.extend(found_numbers)

return phone_numbers

text = "My phone number is +8613812345678. Another one is 010-12345678 and 15912345678"

print(extract_phone_numbers(text))

提取日期：

日期的格式非常多，常见的有 YYYY-MM-DD 、 MM/DD/YYYY 、 DD-MM-YYYY 等。以下是一个能够处理多种常见日期格式的示例：

from datetime import datetime

import re

def extract_dates(text):

date_patterns = [

r'\d{4}-\d{2}-\d{2}', # YYYY-MM-DD

r'\d{2}/\d{2}/\d{4}', # MM/DD/YYYY

r'\d{2}-\d{2}-\d{4}', # DD-MM-YYYY

]

dates = []

for pattern in date_patterns:

found_dates = re.findall(pattern, text)

for date_str in found_dates:

try:

date = datetime.strptime(date_str, pattern)

dates.append(date)

except ValueError:

pass

return dates

text = "The event is on 2024-07-07 and another one on 07/07/2024 and 07-07-2024"

print(extract_dates(text))

提取网址：

网址的格式通常以 http 或 https 开头，后面跟着域名和路径等。以下是一个提取网址的示例：

import re

def extract_urls(text):

url_pattern = r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'

return re.findall(url_pattern, text)

text = "Check out these websites: https://www.example.com/page?param=value and http://another-site.org"

print(extract_urls(text))

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/780921.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

Python】从文本字符串中提取数字、电话号码、日期、网址的方法

相关文章

YOLOv8结合SAHI推理图像和视频

Open3D 点云的圆柱形邻域搜索

SpEL表达式相关知识点

如何利用Github Action实现自动Merge PR

苍穹外卖 ...待更新

【QT】显示类控件

自注意力机制和多头注意力机制区别

浅尝Apache Mesos

8、Redis 的线程模型、I/O 模型和多线程

【WebRTC实现点对点视频通话】

【云原生】Prometheus监控Docker指标并接入Grafana

汉诺塔与青蛙跳台阶

Java项目：基于SSM框架实现的共享客栈管理系统分前后台【ssm+B/S架构+源码+数据库+毕业论文】

网页生成二维码、在线演示

go语言day11 错误 defer(),panic(),recover()

【JAVA多线程】线程池概论

“未来已来·智能共融”高峰论坛在京成功举办

时间处理的未来：Java 8全新日期与时间API完全解析

JAVA 课设满汉楼餐厅点餐系统

SAP_MM模块-特殊业务场景下的系统实现方案